除了使用硬标签的标准监督学习外,通常在许多监督学习设置中使用辅助损失来改善模型的概括。例如,知识蒸馏增加了第二个教师模仿模型训练的损失,在该培训中,教师可能是一个验证的模型,可以输出比标签更丰富的分布。同样,在标记数据有限的设置中,弱标记信息以标签函数的形式使用。此处引入辅助损失来对抗标签函数,这些功能可能是基于嘈杂的规则的真实标签近似值。我们解决了学习以原则性方式结合这些损失的问题。我们介绍AMAL,该AMAL使用元学习在验证度量上学习实例特定的权重,以实现损失的最佳混合。在许多知识蒸馏和规则降解域中进行的实验表明,Amal在这些领域中对竞争基准的增长可显着。我们通过经验分析我们的方法,并分享有关其提供性能提升的机制的见解。
translated by 谷歌翻译
随着深入学习更加标签的目标,越来越多的论文已经研究了深度模型的主动学习(AL)。然而,普遍存在的实验设置中存在许多问题,主要源于缺乏统一的实施和基准。当前文献中的问题包括有时对不同AL算法的性能的矛盾观察,意外排除重要的概括方法,如数据增强和SGD进行优化,缺乏对al的标签效率等评价方面的研究,并且很少或没有在Al优于随机采样(RS)的情况下的清晰度。在这项工作中,我们通过我们的新开源AL Toolkit Distil在图像分类的背景下统一重新实现了最先进的AL算法,我们仔细研究了这些问题作为有效评估的方面。在积极的方面,我们表明AL技术为2美元至4倍以上$ 4 \倍。与使用数据增强相比,与卢比相比,高效。令人惊讶的是,当包括数据增强时,在使用徽章,最先进的方法,在简单的不确定性采样中不再存在一致的增益。然后,我们仔细分析现有方法如何具有不同数量的冗余和每个类的示例。最后,我们为AL从业者提供了几次见解,以考虑在将来的工作中考虑,例如Al批量大小的效果,初始化的效果,在每一轮中再培训模型的重要性以及其他见解。
translated by 谷歌翻译
数据文章介绍了路线损坏数据集RDD2022,其中包括来自六个国家,日本,印度,捷克共和国,挪威,美国和中国的47,420条道路图像。图像已注释了超过55,000个道路损坏的实例。数据集中捕获了四种类型的道路损坏,即纵向裂缝,横向裂纹,鳄鱼裂纹和坑洼。设想注释的数据集用于开发基于深度学习的方法以自动检测和对道路损害进行分类。该数据集已作为基于人群传感的道路伤害检测挑战(CRDDC2022)的一部分发布。 CRDDC2022挑战邀请了来自全球的研究人员提出解决方案,以在多个国家 /地区自动道路损害检测。市政当局和道路机构可以使用RDD2022数据集,并使用RDD2022培训的模型用于低成本自动监测道路状况。此外,计算机视觉和机器学习研究人员可能会使用数据集对其他类型的其他基于图像的应用程序(分类,对象检测等)进行不同算法的性能。
translated by 谷歌翻译
神经网络在与噪声扰动的图像分类中的精度较小。 CNN卷积神经网络以其在良性图像的分类中无与伦比的精度而闻名。但是我们的研究表明,它们极易受到噪声的攻击,而馈送前向神经网络,FNN与噪声扰动的对应性较小,几乎不受干扰地保持其准确性。观察到FNN可以更好地分类噪声密集的单通道图像,而这些图像只是人类视觉的巨大噪音。在我们的研究中,我们使用了以下架构的手写数字数据集,MNIST:具有1和2个隐藏层和CNN的FNN,带有3、4、6和8卷积,并分析了其准确性。 FNN脱颖而出表明,无论噪声强度如何,它们的分类精度超过85%。在我们通过此数据对CNN的分析中,CNN的分类准确性减速8卷积是其余CNN的一半。准确性趋势的相关分析和数学建模是这些结论的路线图。
translated by 谷歌翻译
机器学习中的知识蒸馏是将知识从名为教师的大型模型转移到一个名为“学生”的较小模型的过程。知识蒸馏是将大型网络(教师)压缩到较小网络(学生)的技术之一,该网络可以部署在手机等小型设备中。当教师和学生之间的网络规模差距增加时,学生网络的表现就会下降。为了解决这个问题,在教师模型和名为助教模型的学生模型之间采用了中间模型,这反过来弥补了教师与学生之间的差距。在这项研究中,我们已经表明,使用多个助教模型,可以进一步改进学生模型(较小的模型)。我们使用加权集合学习将这些多个助教模型组合在一起,我们使用了差异评估优化算法来生成权重值。
translated by 谷歌翻译
学习高级语音表征的自学学习(SSL)一直是在低资源环境中构建自动语音识别(ASR)系统的一种流行方法。但是,文献中提出的共同假设是,可以使用可用于SSL预训练的相同域或语言的大量未标记数据,我们承认,在现实世界中,这是不可行的。在本文中,作为Interspeech Gram Vaani ASR挑战的一部分,我们尝试研究域,语言,数据集大小和上游训练SSL数据对最终性能下游ASR任务的效果。我们还建立在持续的训练范式的基础上,以研究使用SSL训练的模型所拥有的先验知识的效果。广泛的实验和研究表明,ASR系统的性能易受用于SSL预训练的数据。它们的性能随着相似性和预训练数据量的增加而提高。我们认为,我们的工作将有助于语音社区在低资源环境中建立更好的ASR系统,并引导研究改善基于SSL的语音系统预培训的概括。
translated by 谷歌翻译
虽然自我监督的语音表示学习(SSL)模型执行了各种下游任务,但已经观察到这些模型过于拟合未标记数据来源的域。为了减轻此问题,我们提出了PADA(修剪辅助域的适应性),并在大量室外(OOD)数据上进行预训练的模型中的冗余权重。直观地,这有助于为目标域ASR芬太尼腾出空间。可以通过各种修剪策略来识别多余的权重,这些策略已作为本工作的一部分进行了详细讨论。具体而言,我们研究了最近发现的任务不合时宜的和任务感知的修剪对PADA的效果,并根据后者提出了一个新的修剪范式,我们称之为跨域任务意识到的修剪(CD-TAW)。 CD-TAW从精心调整的OOD模型中获得了初始修剪面膜,这使其与本文讨论的其余修剪策略完全不同。当在没有语言模型(LM)解码的2小时子集中进行微调时,我们提出的CD-TAW方法比基线相对相对改善高达20.6%。此外,我们进行了详细的分析,以突出提出的方法的关键设计选择。
translated by 谷歌翻译
由于不规则的病变界限,病变与背景之间的对比度较差,以及伪影之间的对比度,皮肤病的自动分割是一种具有挑战性的任务。在这项工作中,提出了一种新的卷积神经网络的方法,用于皮肤病变分割。在这项工作中,提出了一种新型多尺度特征提取模块,用于提取更多辨别特征,以处理与复杂的皮肤病变有关的挑战;该模块嵌入在UNET中,替换标准架构中的卷积层。此外,在这项工作中,两个不同的关注机制完善了编码器提取的特征和后ups采样的特征。使用两个公开的数据集进行评估,包括ISBI2017和ISIC2018数据集。该方法报告了ISBI2017数据集中的准确性,召回和JSI,97.5%,94.29%,91.16%,95.92%,95.92%,95.37%,95.37%,91.52%在ISIC2018数据集。它在各个竞争中表现出现有的方法和排名的模型。
translated by 谷歌翻译